首先,Gemini具有复杂的多模态推理能力,可以帮助理解复杂的书面和视觉信息,在海量的数据中发掘难以辨别的知识内容。例如,通过自然语言prompt指示它过滤不相关论文,或通过阅读提取关键数据。只需一个午饭休息时间,Gemini就可以帮你从20万篇论文中提取250篇文献要点,进一步将数据转化为任何需要的图表形式。这将大大有助于在科学、金融等多个领域以数字化速度实现创新突破。经过训练的Gemini显然还可以同时识别并理解文本、图像、音频数据,更好地理解具有细微差别的信息,回答与复杂主题相关的问题。这就让它尤其擅长解释数学和物理等科目推理。在示例中,工作人员展示了Gemini可以检查手写物理错题,并解释正确做法。为了更直观显示Gemini的多模态能力,劈柴哥在X发布了一段视频,表示“理解Gemini潜在惊人能力的最佳方式就是看看它们的实际应用”。视频中,Gemini根据指示教工作人员“鸭子”的普通话发音,还解释了汉语声调。工作人员还给Gemini做了一个仅用中文提示互动的演示。通过询问一张图片中的室内光线,用中要求Gemini给出公寓朝向。Gemini用中文回答猜测房间朝南。又圈出照片中一株植物,询问它需要什么样的照明,gemini接着解释了植物种类和光照需求。整个过程母语般流畅,可见Gemini在多语言环境下表现出众,完全也不亚于GPT-4。此外, Gemini 还可以理解、解释和生成世界上最流行的编程语言(如 Python、Java、C++ 和 Go)的高质量代码。实现跨语言工作并对处理复杂信息,这些能力使其成为世界领先的编码基础模型之一,协助程序员使用功能强大的 AI 模型作为协作工具设计应用程序。对于开发人员来说,从 12 月 13 日开始,就可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 获取 Gemini Pro。Android 开发者还可以通过 AICore 使用端侧任务最高效的模型 Gemini Nano。
谷歌能否迎头赶上?
回想谷歌一路的大模型发展之路,与OpenAI“王炸“不断、极速更新,微软将GPT各项AI功能整合进核心产品铺天盖地推向客户相比,总显得慢人一步。今年2月发布聊天机器人Bard时更是出师不利,以一个事实错误让市值一夜蒸发1000亿美元;对标微软Copilot的Duet AI工作套件,市场反响不愠不火,云服务的财报表现也败给了微软。特别是经历过Brain与DeepMind团队重组内耗、高级人才纷纷向OpenAI流失后,谷歌的AI之战打的更是精疲力竭。不过,这毕竟是贡献出Transformer开山巨作《Attention is all you need》论文和里程碑式人工智能程序AlphaGo、启发后续包括ChatGPT在内许多大模型发展的AI先驱之师。无论从技术基因、训练数据、资金和基建来说,都本该具备数一数二的实力。这次Gemini的发布被谷歌视为十年来最关键的技术创新。它能否让谷歌重整旗鼓,击败OpenAI,重登大模型赛场王座?明年Genmini Ultra问世后,AI竞赛格局是否会被重塑?以及,新的Google Bard大家都试用了没,感觉如何?欢迎留言分享,或进群和我们一起探讨! 欢迎加入这个星球,见证硅基时代发展↓